2025. gada 3. oktobrisLatviešu

Izpētiet dabiskās valodas apstrādes pamatkoncepcijas ar mūsu visaptverošo ceļvedi N-gramu valodas modeļu ieviešanai no nulles. Apgūstiet teoriju, kodu un praktiskos pielietojumus.

NLP pamatu veidošana: dziļš ieskats N-gramu valodas modeļa ieviešanā

Ērā, kurā dominē mākslīgais intelekts, sākot no viedajiem palīgiem mūsu kabatās līdz sarežģītiem algoritmiem, kas nodrošina meklētājprogrammas, valodas modeļi ir neredzami dzinēji, kas virza daudzus no šiem jauninājumiem. Tie ir iemesls, kāpēc jūsu tālrunis var paredzēt nākamo vārdu, ko vēlaties ierakstīt, un kā tulkošanas pakalpojumi var brīvi pārveidot vienu valodu citā. Bet kā šie modeļi patiesībā darbojas? Pirms sarežģītu neironu tīklu, piemēram, GPT, parādīšanās, skaitļošanas lingvistikas pamats tika būvēts uz skaisti vienkāršas, tomēr spēcīgas statistiskas pieejas: N-gramu modeļa.

Šis visaptverošais ceļvedis ir paredzēts topošo datu zinātnieku, programmatūras inženieru un zinātkāru tehnoloģiju entuziastu globālai auditorijai. Mēs atgriezīsimies pie pamatiem, demistificējot N-gramu valodas modeļu teoriju un sniedzot praktisku, soli pa solim aprakstu par to, kā izveidot vienu no pamatiem. N-grammu izpratne nav tikai vēstures stunda; tas ir būtisks solis, lai izveidotu stabilu pamatu dabiskās valodas apstrādē (NLP).

Kas ir valodas modelis?

Pēc būtības valodas modelis (LM) ir varbūtības sadalījums pār vārdu secību. Vienkāršāk sakot, tā galvenais uzdevums ir atbildēt uz fundamentālu jautājumu: Ņemot vērā vārdu secību, kurš ir visiespējamākais nākamais vārds?

Apsveriet teikumu: "Studenti atvēra savas ___."

Labi apmācīts valodas modelis piešķirtu lielu varbūtību tādiem vārdiem kā "grāmatas", "klēpjdatori" vai "prātus", un ārkārtīgi zemu, gandrīz nulles, varbūtību tādiem vārdiem kā "fotosintēze", "ziloņi" vai "šoseja". Kvantuificējot vārdu secību varbūtību, valodas modeļi ļauj mašīnām saprast, ģenerēt un apstrādāt cilvēku valodu saskaņotā veidā.

To pielietojumi ir plaši un integrēti mūsu ikdienas digitālajā dzīvē, tostarp:

Mašīntulkošana: Nodrošinot, ka izejas teikums ir brīvs un gramatiski pareizs mērķa valodā.
Runas atpazīšana: Atšķirot fonētiski līdzīgas frāzes (piemēram, "recognize speech" pret "wreck a nice beach").
Prognozējošs teksts un automātiskā pabeigšana: Ieteikumi par nākamo vārdu vai frāzi, rakstot.
Pareizrakstības un gramatikas labošana: Identificējot un atzīmējot vārdu secības, kas ir statistiski maz ticamas.

Iepazīstinām ar N-grammām: pamatkoncepcija

N-gramma ir vienkārši blakus esoša 'n' vienību secība no dotā teksta vai runas parauga. 'Vienības' parasti ir vārdi, bet tās var būt arī rakstzīmes, zilbes vai pat fonēmas. 'n' N-grammā apzīmē skaitli, kas noved pie konkrētiem nosaukumiem:

Unigramma (n=1): Viens vārds. (piem., "The", "quick", "brown", "fox")
Bigramma (n=2): Divu vārdu secība. (piem., "The quick", "quick brown", "brown fox")
Trigramma (n=3): Trīs vārdu secība. (piem., "The quick brown", "quick brown fox")

N-gramu valodas modeļa pamatideja ir tāda, ka mēs varam paredzēt nākamo vārdu secībā, aplūkojot 'n-1' vārdus, kas bija pirms tā. Tā vietā, lai mēģinātu saprast teikuma pilnīgu gramatisko un semantisko sarežģītību, mēs izdarām vienkāršojošu pieņēmumu, kas dramatiski samazina problēmas sarežģītību.

Matemātika aiz N-grammām: varbūtība un vienkāršošana

Lai formāli aprēķinātu teikuma varbūtību (vārdu secība W = w₁, w₂, ..., wₖ), mēs varam izmantot varbūtības ķēdes likumu:

P(W) = P(w₁) * P(w₂|w₁) * P(w₃|w₁, w₂) * ... * P(wₖ|w₁, ..., wₖ₋₁)

Šī formula apgalvo, ka visas secības varbūtība ir katra vārda nosacīto varbūtību reizinājums, ņemot vērā visus vārdus, kas bija pirms tā. Lai gan matemātiski pamatota, šī pieeja ir nepraktiska. Aprēķinot vārda varbūtību, ņemot vērā garu iepriekšējo vārdu vēsturi (piemēram, P(vārds | "The quick brown fox jumps over the lazy dog and then...")), būtu nepieciešams neiespējami liels teksta datu apjoms, lai atrastu pietiekami daudz piemēru, lai izdarītu drošu novērtējumu.

Markova pieņēmums: praktiska vienkāršošana

Šeit N-gramu modeļi ievieš savu svarīgāko koncepciju: Markova pieņēmumu. Šis pieņēmums apgalvo, ka vārda varbūtība ir atkarīga tikai no fiksēta iepriekšējo vārdu skaita. Mēs pieņemam, ka tiešais konteksts ir pietiekams, un mēs varam atmest tālāku vēsturi.

bigramu modelim (n=2), mēs pieņemam, ka vārda varbūtība ir atkarīga tikai no viena iepriekšējā vārda:
P(wᵢ | w₁, ..., wᵢ₋₁) ≈ P(wᵢ | wᵢ₋₁)
trigramu modelim (n=3), mēs pieņemam, ka tas ir atkarīgs no diviem iepriekšējiem vārdiem:
P(wᵢ | w₁, ..., wᵢ₋₁) ≈ P(wᵢ | wᵢ₋₁, wᵢ₋₂)

Šis pieņēmums padara problēmu skaitļošanas ziņā risināmu. Mums vairs nav jāredz precīza pilnīga vārda vēsture, lai aprēķinātu tā varbūtību, tikai pēdējie n-1 vārdi.

N-gramu varbūtību aprēķināšana

Ar Markova pieņēmumu, kā mēs aprēķinām šīs vienkāršotās varbūtības? Mēs izmantojam metodi, ko sauc par Maksimālās ticamības novērtēšanu (MLE), kas ir izsmalcināts veids, kā pateikt, ka mēs iegūstam varbūtības tieši no skaitļiem mūsu apmācības tekstā (korpusā).

Bigramu modelim vārda wᵢ varbūtība pēc vārda wᵢ₋₁ tiek aprēķināta kā:

P(wᵢ | wᵢ₋₁) = Count(wᵢ₋₁, wᵢ) / Count(wᵢ₋₁)

Vārdos: Vārda B redzēšanas varbūtība pēc vārda A ir reižu skaits, cik reizes mēs redzējām pāri "A B", dalīts ar reižu skaitu, cik reizes mēs redzējām vārdu "A" kopumā.

Izmantosim nelielu korpusu kā piemēru: "The cat sat. The dog sat."

Count("The") = 2
Count("cat") = 1
Count("dog") = 1
Count("sat") = 2
Count("The cat") = 1
Count("The dog") = 1
Count("cat sat") = 1
Count("dog sat") = 1

Kāda ir "cat" varbūtība pēc "The"?
P("cat" | "The") = Count("The cat") / Count("The") = 1 / 2 = 0.5

Kāda ir "sat" varbūtība pēc "cat"?
P("sat" | "cat") = Count("cat sat") / Count("cat") = 1 / 1 = 1.0

Soli pa solim ieviešana no nulles

Tagad pārvērtīsim šo teoriju praktiskā ieviešanā. Mēs izklāstīsim soļus valodu agnostiskā veidā, lai gan loģika tieši attiecas uz tādām valodām kā Python.

1. solis: datu iepriekšēja apstrāde un tokenizācija

Pirms mēs varam kaut ko saskaitīt, mums ir jāsagatavo mūsu teksta korpuss. Tas ir kritisks solis, kas veido mūsu modeļa kvalitāti.

Tokenizācija: Teksta sadalīšanas process mazākās vienībās, ko sauc par tokeniem (mūsu gadījumā vārdiem). Piemēram, "The cat sat." kļūst par ["The", "cat", "sat", "."].
Mazo burtu rakstīšana: Tā ir standarta prakse, lai visu tekstu pārveidotu par mazajiem burtiem. Tas neļauj modelim apstrādāt "The" un "the" kā divus dažādus vārdus, kas palīdz apvienot mūsu skaitļus un padarīt modeli robustāku.
Sākuma un beigu tokenu pievienošana: Šī ir ļoti svarīga tehnika. Mēs pievienojam īpašus tokenus, piemēram, <s> (sākums) un </s> (beigas), katra teikuma sākumā un beigās. Kāpēc? Tas ļauj modelim aprēķināt vārda varbūtību pašā teikuma sākumā (piem., P("The" | <s>)) un palīdz noteikt visa teikuma varbūtību. Mūsu piemēra teikums "the cat sat." kļūtu par ["<s>", "the", "cat", "sat", ".", "</s>"].

2. solis: N-grammu skaitīšana

Kad mums ir tīrs tokenu saraksts katram teikumam, mēs atkārtojam mūsu korpusu, lai iegūtu skaitļus. Labākā datu struktūra šim nolūkam ir vārdnīca vai jaucējkarte, kur atslēgas ir N-grammas (attēlotas kā korteži) un vērtības ir to frekvences.

Bigramu modelim mums būtu vajadzīgas divas vārdnīcas:

unigram_counts: saglabā katra atsevišķa vārda frekvenci.
bigram_counts: saglabā katras divu vārdu secības frekvenci.

Jūs cilpotu cauri saviem tokenizētajiem teikumiem. Teikumam, piemēram, ["<s>", "the", "cat", "sat", "</s>"], jūs rīkotos šādi:

Palieliniet skaitu unigrammām: "<s>", "the", "cat", "sat", "</s>".
Palieliniet skaitu bigrammām: ("<s>", "the"), ("the", "cat"), ("cat", "sat"), ("sat", "</s>").

3. solis: varbūtību aprēķināšana

Kad mūsu skaitļu vārdnīcas ir aizpildītas, mēs tagad varam izveidot varbūtības modeli. Mēs varam saglabāt šīs varbūtības citā vārdnīcā vai aprēķināt tās lidojumā.

Lai aprēķinātu P(vārds₂ | vārds₁), jūs izgūtu bigram_counts[(vārds₁, vārds₂)] un unigram_counts[vārds₁] un veiktu dalīšanu. Laba prakse ir iepriekš aprēķināt visas iespējamās varbūtības un saglabāt tās ātrai uzmeklēšanai.

4. solis: teksta ģenerēšana (jautrs pielietojums)

Lielisks veids, kā pārbaudīt savu modeli, ir likt tam ģenerēt jaunu tekstu. Process darbojas šādi:

Sāciet ar sākotnējo kontekstu, piemēram, sākuma tokenu <s>.
Meklējiet visas bigrammas, kas sākas ar <s>, un to saistītās varbūtības.
Nejauši atlasiet nākamo vārdu, pamatojoties uz šo varbūtības sadalījumu (vārdi ar lielāku varbūtību, visticamāk, tiks izvēlēti).
Atjauniniet savu kontekstu. Jaunizvēlētais vārds kļūst par nākamo bigrammas pirmo daļu.
Atkārtojiet šo procesu, līdz ģenerējat beigu tokenu </s> vai sasniedzat vēlamo garumu.

Teksts, ko ģenerē vienkāršs N-gramu modelis, var nebūt pilnīgi saskanīgs, bet tas bieži vien radīs gramatiski ticamus īsus teikumus, parādot, ka tas ir apguvis pamata attiecības starp vārdiem.

Retināšanas izaicinājums un risinājums: izlīdzināšana

Kas notiek, ja mūsu modelis testēšanas laikā sastop bigrammu, ko tas nekad nav redzējis apmācības laikā? Piemēram, ja mūsu apmācības korpuss nekad nav saturējis frāzi "the purple dog", tad:

Count("the", "purple") = 0

Tas nozīmē, ka P("purple" | "the") būtu 0. Ja šī bigramma ir daļa no garāka teikuma, kuru mēs mēģinām novērtēt, visa teikuma varbūtība kļūs nulle, jo mēs reizinām visas varbūtības kopā. Šī ir nulles varbūtības problēma, datu retināšanas izpausme. Ir nereāli pieņemt, ka mūsu apmācības korpuss satur katru iespējamo derīgo vārdu kombināciju.

Šī risinājums ir izlīdzināšana. Izlīdzināšanas pamatideja ir ņemt nelielu daudzumu varbūtības masas no N-grammām, ko esam redzējuši, un sadalīt to N-grammām, ko nekad neesam redzējuši. Tas nodrošina, ka nevienai vārdu secībai nav tieši nulle varbūtība.

Laplasa (pievienot vienu) izlīdzināšana

Vienkāršākā izlīdzināšanas tehnika ir Laplasa izlīdzināšana, kas pazīstama arī kā pievienot vienu izlīdzināšana. Ideja ir neticami intuitīva: izliecieties, ka mēs esam redzējuši katru iespējamo N-grammu vienu reizi vairāk, nekā mēs patiesībā to darījām.

Formula varbūtībai nedaudz mainās. Mēs pievienojam 1 skaitītāja skaitam. Lai nodrošinātu, ka varbūtības joprojām summējas līdz 1, mēs pievienojam visas vārdnīcas (V) lielumu saucējam.

P_laplace(wᵢ | wᵢ₋₁) = (Count(wᵢ₋₁, wᵢ) + 1) / (Count(wᵢ₋₁) + V)

Plusi: Ļoti vienkārši ieviest un garantē, ka nav nulles varbūtības.
Mīnusi: Tas bieži piešķir pārāk daudz varbūtības neredzētiem notikumiem, īpaši ar lielām vārdnīcām. Šī iemesla dēļ tas bieži darbojas slikti salīdzinājumā ar progresīvākām metodēm.

Pievienot k izlīdzināšanu

Neliels uzlabojums ir pievienot k izlīdzināšanu, kur tā vietā, lai pievienotu 1, mēs pievienojam nelielu daļveida vērtību 'k' (piemēram, 0,01). Tas mīkstina pārāk daudz varbūtības masas pārdales efektu.

P_add_k(wᵢ | wᵢ₋₁) = (Count(wᵢ₋₁, wᵢ) + k) / (Count(wᵢ₋₁) + k*V)

Lai gan labāk nekā pievienot vienu, optimālā 'k' atrašana var būt izaicinājums. Pastāv progresīvākas tehnikas, piemēram, Good-Turing izlīdzināšana un Kneser-Ney izlīdzināšana, un tās ir standarta daudzos NLP rīku komplektos, piedāvājot daudz sarežģītākus veidus, kā novērtēt neredzētu notikumu varbūtību.

Valodas modeļa novērtēšana: Perpleksitāte

Kā mēs zinām, vai mūsu N-gramu modelis ir labs? Vai arī trigramu modelis ir labāks par bigramu modeli mūsu konkrētajam uzdevumam? Mums ir nepieciešams kvantitatīvs metriskais rādītājs novērtēšanai. Visizplatītākais metriskais rādītājs valodas modeļiem ir perpleksitāte.

Perpleksitāte ir mērs tam, cik labi varbūtības modelis paredz paraugu. Intuitīvi to var uzskatīt par modeļa svērto vidējo sazarojuma faktoru. Ja modelim ir 50 perpleksitāte, tas nozīmē, ka katrā vārdā modelis ir tikpat apjucis, it kā tam būtu jāizvēlas vienmērīgi un neatkarīgi no 50 dažādiem vārdiem.

Zemāks perpleksitātes rezultāts ir labāks, jo tas norāda, ka modelis ir mazāk "pārsteigts" par testa datiem un piešķir lielākas varbūtības secībām, ko tas faktiski redz.

Perpleksitāte tiek aprēķināta kā testa kopas apgrieztā varbūtība, normalizēta pēc vārdu skaita. To bieži attēlo tā logaritmiskajā formā, lai atvieglotu aprēķināšanu. Modelis ar labu paredzēšanas spēku piešķirs lielas varbūtības testa teikumiem, kā rezultātā būs zema perpleksitāte.

N-gramu modeļu ierobežojumi

Neskatoties uz to fundamentālo nozīmi, N-gramu modeļiem ir ievērojami ierobežojumi, kas ir virzījuši NLP jomu uz sarežģītākām arhitektūrām:

Datu retināšana: Pat ar izlīdzināšanu, lielākam N (trigrammas, 4-grammas utt.), iespējamo vārdu kombināciju skaits eksplodē. Kļūst neiespējami iegūt pietiekami daudz datu, lai droši novērtētu varbūtības lielākajai daļai no tām.
Uzglabāšana: Modelis sastāv no visiem N-grammu skaitļiem. Palielinoties vārdnīcai un N, atmiņa, kas nepieciešama šo skaitļu saglabāšanai, var kļūt milzīga.
Nespēja uztvert tālas atkarības: Šis ir to kritiskākais trūkums. N-gramu modelim ir ļoti ierobežota atmiņa. Piemēram, trigramu modelis nevar savienot vārdu ar citu vārdu, kas parādījās vairāk nekā divas pozīcijas pirms tā. Apsveriet šo teikumu: "The author, who wrote several best-selling novels and lived for decades in a small town in a remote country, speaks fluent ___." Trigramu modelis, mēģinot paredzēt pēdējo vārdu, redz tikai kontekstu "speaks fluent". Tam nav zināšanu par vārdu "author" vai atrašanās vietu, kas ir ļoti svarīgi pavedieni. Tas nevar uztvert semantiskās attiecības starp attāliem vārdiem.

Ārpus N-grammām: neironu valodas modeļu sākums

Šie ierobežojumi, īpaši nespēja apstrādāt tālas atkarības, pavēra ceļu neironu valodas modeļu izstrādei. Tādas arhitektūras kā atkārtoti neironu tīkli (RNN), ilgtermiņa īslaicīgās atmiņas tīkli (LSTM) un jo īpaši tagad dominējošie transformatori (kas nodrošina tādus modeļus kā BERT un GPT) tika izstrādāti, lai pārvarētu šīs konkrētās problēmas.

Tā vietā, lai paļautos uz retinātiem skaitļiem, neironu modeļi apgūst blīvus vārdu vektoru attēlojumus (iegultņus), kas uztver semantiskās attiecības. Tie izmanto iekšējos atmiņas mehānismus, lai izsekotu kontekstu garākās secībās, ļaujot tiem saprast sarežģītās un tālas atkarības, kas piemīt cilvēku valodai.

Secinājums: NLP pamatpīlārs

Lai gan mūsdienu NLP dominē liela mēroga neironu tīkli, N-gramu modelis joprojām ir neaizstājams izglītojošs rīks un pārsteidzoši efektīva bāzes līnija daudziem uzdevumiem. Tas nodrošina skaidru, interpretējamu un skaitļošanas ziņā efektīvu ievadu valodas modelēšanas galvenajam izaicinājumam: izmantojot statistiskos modeļus no pagātnes, lai paredzētu nākotni.

Izveidojot N-gramu modeli no nulles, jūs iegūstat dziļu, pirmprincipu izpratni par varbūtību, datu retināšanu, izlīdzināšanu un novērtēšanu NLP kontekstā. Šīs zināšanas nav tikai vēsturiskas; tas ir konceptuālais pamats, uz kura ir būvēti mūsdienu AI debesskrāpji. Tas māca jums domāt par valodu kā par varbūtību secību — perspektīvu, kas ir būtiska, lai apgūtu jebkuru valodas modeli, neatkarīgi no tā, cik sarežģīts tas ir.